【科研进展】基于混合架构光子计算芯片的高效强化学习

上海交大物理与天文学院 2024-04-20

上海交通大学物理与天文学院金贤敏课题组成功研发了一种新型混合架构可编程光子计算芯片，展示了基于光子芯片的强化学习（PIC-RL）对钙钛矿材料合成任务的高效求解。这一重要研究成果以“High-efficiency reinforcement learning with hybrid architecture photonic integrated circuit”为题，于2024年2月5日在Nature Communications期刊上在线发表。

点击“阅读原文”查看文章链接：https://www.nature.com/articles/s41467-024-45305-z

强化学习（Reinforcement Learning, RL）是机器学习的核心范式之一，在构建通用学习系统（例如ChatGPT等）中发挥着至关重要的作用。然而，传统电子计算机在模拟强化学习模型中智能体与环境交互的过程中消耗了大量计算资源，对强化学习的效率提出了重大挑战。为了克服这一难题，研究团队提出了一个通用框架，利用光子集成芯片（PIC）来模拟强化学习中的交互，以提高算法效率。该项研究结果验证了在光子集成芯片平台上模拟强化学习算法交互的有效性，突显了其在处理大规模和复杂RL任务中提升计算能力的潜力。

图1 a) 混合架构光子芯片（HyArch PIC）示意图，由光学幺正网络结构U和光学点积处理器OCTOPUS组成；

b) 基于光子芯片的强化学习（PIC-RL）框架。

研究团队设计的混合架构光子芯片（HyArch PIC）在可扩展性和多功能性方面相较于单一集成光计算架构（如SVD网络和光学线性神经元架构）表现出显著优势。将HyArch PIC与高速FPGA和电驱动器集成在单个开发板上，形成高度集成的光电计算板卡，提供了巨大的硬件优化空间。通过全局参数优化和链路校准，HyArch PIC可以完成高达15维光学点积操作的高精度运算，确保后续复杂RL算法在光子芯片上的有效执行。

图2 基于HyArch PIC芯片光电计算系统的实验展示。

为了验证PIC-RL框架的有效性，研究团队进行了基于悬崖行走环境（cliff walking）的基准测试。在Q-learning算法的基础上，引入相似度奖励函数(SRF)实现了相较于恒定奖励函数(CRF)呈指数级别的加速效果。基于高效的PIC-RL框架，研究团队成功地在3472维状态空间内完成了钙钛矿材料合成的强化学习任务，并显著提升了算法效率(56%的提升)。

图3 基于PIC-RL的钙钛矿材料合成任务求解。

文章中提出的PIC-RL框架首次成功实现了在可编程光子计算芯片上的复杂强化学习任务实验求解。同时，HyArch PIC的独特优势为光子人工智能和光量子计算开辟了新的研究方向。这项研究为深入探索前沿强化学习算法以及充分利用光子集成芯片实现先进人工智能奠定了基础。

上海交通大学物理与天文学院博士研究生李轩坤为本文的第一作者，金贤敏教授为通讯作者。合作者包括图灵量子、上海交大无锡光子芯片研究院（CHIPX）的工程研发人员。这一工作得到了国家重点研发计划、国家自然科学基金委员会、量子科学与技术创新计划、上海市科学技术委员会、上海市教育委员会、中国博士后科学基金会等项目的资助。

图文编辑：刘真

责任编辑：叶丹、朱敏